智能论文笔记

非自动回旋（NAR）模型的计算能力比自回归模型较少，但牺牲生成质量可以生成句子。先前的研究通过迭代解码解决了这个问题。这项研究建议将最近的邻居用作NAR解码器的初始状态，并迭代编辑。我们提出了一种新颖的培训策略，以了解有关邻居的编辑操作，以改善NAR文本生成。实验结果表明，所提出的方法（邻域）在JRC-ACQUISIE EN-DE DATASET上获得了更高的翻译质量（比香草变压器高1.69点（比香草变压器高1.69点），而解码迭代率较少（少于十分之一）使用最近的邻居翻译。我们还确认了所提出的方法对数据到文本任务（Wikibio）的有效性。此外，所提出的方法在WMT'14 EN-DE数据集上优于NAR基线。我们还报告了建议方法中使用的邻居示例的分析。

translated by 谷歌翻译

众所周知，SNS提供商可以进行上传视频/图像的重新压缩和调整，但是大多数用于检测篡改视频/图像的常规方法对此类操作不够强大。此外，视频是在时间上操作的，例如插入新框架和框架的排列，通过使用常规方法很难检测到其中的操作。因此，在本文中，我们提出了一种新颖的方法，该方法具有强大的散列算法，即使在对视频进行调整和压缩时，也可以检测到时间操作的视频。

translated by 谷歌翻译

近年来，分散的学习不仅是大规模机器学习的强大工具，而且还用于保留隐私。分散学习的主要挑战之一是，每个节点持有的数据分布在统计上是异质的。为了应对这一挑战，提出了称为边缘传感器学习（ECL）的原始二重算法，并在实验上证明对数据分布的异质性是可靠的。但是，仅当目标函数是凸的时，才提供ECL的收敛速率，并且在目标函数为非convex的标准机器学习设置中尚未显示。此外，尚未研究ECL对数据分布的异质性强大的直观原因。在这项工作中，我们首先研究了ECL和八卦算法之间的关系，并表明ECL的更新公式可以被视为纠正八卦算法中的局部随机梯度。然后，我们提出了包含ECL作为特殊情况的广义ECL（G-ECL），并在（强）凸和非凸面设置中提供G-ECL的收敛速率，这不取决于该设置数据分布的异质性。通过合成实验，我们证明了G-ECL和ECL的数值结果与G-ECL的收敛速率一致。

translated by 谷歌翻译

Extending AdamW by Leveraging Its Second Moment and Magnitude

Guoqiang Zhang , Niwa Kenta , W. Bastiaan Kleijn

分类：机器学习 | 人工智能

2021-12-09

最近的工作[4]分析了两次可差化函数的最佳解决方案附近的亚当局部融合。结果发现，学习率必须足够小，以确保最佳解决方案的局部稳定性。以上的收敛结果也适用于Adamw。在这项工作中，我们提出了一种新的自适应优化方法，通过在两个方面扩展Adamw，以便放宽对局部稳定性的小型学习率的要求，我们称之为AIDA。首先，我们考虑跟踪梯度大小的第2矩R_T。当p = 2时，r_t减少到adamw的v_t。假设{m_t}是adamw的第一个时刻。众所周知，更新方向M_ {T + 1} /（v_ {t + 1} + epsilon）^ 0.5（或m_ {t + 1} /（v_ {t + 1} ^ 0.5 + epsilon）的Adamw（或者亚当）可以被分解为标志向量符号（M_ {t + 1}）通过幅度的向量乘以量数| m_ {t + 1} | /（v_ {t + 1} + epsilon）^ 0.5（或| m_ {t + 1} | /（v_ {t + 1} ^ 0.5 + epsilon）。Aida旨在以| m_ {t + 1} | ^ q /（r_ {t + 1} + epsilon）^（q / p）（或| m_ {t + 1} | ^ q /（（r_ {t + 1}）^（q / p）+ epsilon），减少到当（p，q）=（2,1）时的adamw。假设原点0是两次可差化函数的本地最佳解决方案。理论上是在理论上发现的，当Q> 1和P> 1在Aida中，原点0只有当重量衰减是非零时局部稳定。进行实验，用于解决十个玩具优化问题和训练变压器和训练变压器和Swin变压器，为两个深度学习（DL）任务。实证研究表明，在许多场景中表明（包括两个DL任务），AIDA具有特定设置（P，Q）不等于（2,1）优于Adamw的设置（p，q）=（2,1）。

translated by 谷歌翻译